当前位置: 开发笔记 > 编程语言 > 正文

尺寸|后记_OpenPPLPPQ量化：原理与实践

作者：如果你在的时候的世界_266 | 来源：互联网 | 2023-09-13 14:47

篇首语：本文由编程笔记#小编为大家整理，主要介绍了OpenPPLPPQ量化：原理与实践相关的知识，希望对你有一定的参考价值。目录

篇首语：本文由编程笔记#小编为大家整理，主要介绍了OpenPPL PPQ量化：原理与实践相关的知识，希望对你有一定的参考价值。

量化原理

为什么需要量化&＃xff1f;

量化粒度

框架综述

算子划分

量化中的图融合操作

量化实践&＃xff1a;以pytorch mobilenet v2 模型为例

源码阅读

torch模型和onnx量化过程中的区别

后记

量化原理

为什么需要量化&＃xff1f;

1、减少内存带宽和存储空间

深度学习模型主要是记录每个 layer&＃xff08;比如卷积层/全连接层&＃xff09; 的 weights 和 bias, FP32 模型中&＃xff0c;每个 weight 数值原本需要 32-bit 的存储空间&＃xff0c;量化之后只需要 8-bit 即可。因此&＃xff0c;模型的大小将直接降为将近 1/4。

不仅模型大小明显降低&＃xff0c; activation 采用 8-bit 之后也将明显减少对内存的使用&＃xff0c;这也意味着低精度推理过程将明显减少内存的访问带宽需求&＃xff0c;提高高速缓存命中率&＃xff0c;尤其对于像 batch-norm&＃xff0c; relu&＃xff0c;elmentwise-sum 这种内存约束(memory bound)的 element-wise 算子来说&＃xff0c;效果更为明显。

2、提高系统吞吐量&＃xff08;throughput&＃xff09;&＃xff0c;降低系统延时&＃xff08;latency&＃xff09;

直观理解&＃xff0c;试想对于一个专用寄存器宽度为 512 位的 SIMD 指令&＃xff0c;当数据类型为 FP32 而言一条指令能一次处理 16 个数值&＃xff0c;但是当我们采用 8-bit 表示数据时&＃xff0c;一条指令一次可以处理 64 个数值。因此&＃xff0c;在这种情况下&＃xff0c;可以让芯片的理论计算峰值增加 4 倍。在CPU上&＃xff0c;英特尔至强可扩展处理器的 AVX-512 和 VNNI 高级矢量指令支持低精度和高精度的累加操作。

量化粒度

量化粒度是指共享量化参数的大小&＃xff0c;例如每个 Tensor 共享一组量化参数&＃xff0c;那么量化的粒度为 per-tensor。量化的粒度越小&＃xff0c;模型的精度越好&＃xff0c;但计算成本越高。

per-tensor&＃xff1a;整个神经网络层用一组量化参数(scale, zero-point)
per-channel&＃xff1a;一层神经网络每个通道用一组量化参数(scale, zero-point)。那么就是per-channel需要存更多的量化参数&＃xff0c;对的计算速度也有一点影响。在深度学习中&＃xff0c;张量的每一个通道通常代表一类特征&＃xff0c;因此可能会出现不同的通道之间数据分布较大的情况。对于通道之间差异较大的情况仍然使用张量级的量化方式可能对精度产生一定的影响&＃xff0c;因此通道级量化就显得格外重要。

为了获得最大的性能&＃xff0c;考虑到整数矩阵乘法&＃xff0c;量化的粒度应该是:

对于激活的量化&＃xff0c;由于性能原因&＃xff0c;推荐per-tensor
对于权重的量化&＃xff0c;per-channel和per-tensor都行

可以想象到per-channel量化很明显细粒度更高&＃xff0c;所以一般来说效果会更好&＃xff0c;但当前主流的量化仍然是权重和激活都采用per-tensor量化。

框架综述

整个框架可以分成三部分&＃xff1a;

PPQ Paser 模块可读取 onnx 或 caffe 模型&＃xff0c;并解析成内部格式。解析完成后&＃xff0c;Scheduler 模块对模型进行切分与调度&＃xff0c;粗颗粒度地划分量化与非量化算子。

Quantizer 模块是 PPQ 量化执行的中枢&＃xff0c;为模型算子分配特定的部署平台&＃xff0c;并初始化量化设置&＃xff0c;调用各种优化 Pass&＃xff0c;完成量化联合定点、图融合及量化优化。

Executor 模块依据模型拓扑关系&＃xff0c;调用底层算子实现&＃xff0c;执行前向推理。模型量化完成后&＃xff0c;调用 Exporter 模块&＃xff0c;导出模型和量化参数。

算子划分

PPQ 使用 graph dispatcher 将图中所有算子划分为三类&＃xff1a;

不可量化区&＃xff1a;这区域的算子与 shape或者 index 有关&＃xff0c;一旦量化将导致图的计算发生错误&＃xff0c;因此不可量化&＃xff0c;同时默认被调度到 Host 端以浮点精度执行。
可量化区&＃xff1a;这区域的算子被认为是可以量化的&＃xff0c;它们是 input, conv, gemm 的延伸算子&＃xff0c;PPQ 使用数值追踪技术标记这些算子&＃xff0c;这些算子处理的运算一定是 input, conv, gemm 的计算结果。它们被调度到设备端以 int8 精度执行。
争议区&＃xff1a;这区域的算子同时接收来自不可量化区以及可量化区的输入&＃xff0c;所有争议区的算子延伸也是争议算子&＃xff0c;量化这些算子是有风险的&＃xff0c;PPQ 不能保证量化产生的影响。该区算子被调度到设备端以浮点精度执行。

为了找出这些区域&＃xff0c;PPQ 使用图搜索引擎进行区域划分&＃xff0c;其基本思想是通过枚举所有算子的计算情况&＃xff0c;确定输入的来源是否与 shape 或 index 相关。你可以通过 ppq.scheduler 中的代码看到它们的具体实现。

在 PPQ 中&＃xff0c;我们实现了三种不同的调度逻辑&＃xff0c;不同的调度逻辑将产生不同的区域划分&＃xff1a;

激进式调度&＃xff1a;该调度方法将所有争议区算子视作可量化的。
保守式调度&＃xff1a;该调度方法将所有争议区算子视作不可量化的&＃xff08;它们依然将被调度到设备端&＃xff09;。
pplnn&＃xff1a;该调度方法只量化卷积层与其相关算子。

量化中的图融合操作

硬件精度未对齐的主要原因在于 —— 推理库后端会对模型做大量的联合定点和图融合优化&＃xff0c;我们写入的量化参数已被后端融合或修改&＃xff0c;量化模拟与后端推理并不一致&＃xff0c;导致优化算法大打折扣。

PPQ 使用 Tensor Quantization Config 类来描述算子数值量化的细节&＃xff0c;其绑定在算子之上。

Executor 模块执行每一个算子时&＃xff0c;并不会在模型中插入量化节点&＃xff0c;而是通过一种类似于 hook 的形式&＃xff0c;直接将量化操作添加到算子的执行逻辑中。模型算子输入/输出变量是否量化&＃xff0c;由算子输入/输出的 Tensor Quantization Config 的 state 属性决定。

量化实践&＃xff1a;以pytorch mobilenet v2 模型为例

首先按照官方教程安装ppq&＃xff1a;ppq/quantize_torch_model.py at master · openppl-public/ppq · GitHub

我是使用 Install PPQ from source 方法安装的&＃xff0c;直接安装会报错&＃xff0c;可能是库之间相互依赖的问题&＃xff0c;把requirements.txt文件中的onnx >&＃61; 1.9.0改成onnx &＃61;&＃61; 1.9.0即可。

官方提供了一份完整的例子地址&＃xff1a;ppq/quantize_torch_model.py at master · openppl-public/ppq · GitHub

打开文件openppl/ppq/ppq/samples运行脚本python quantize_torch_model.py&＃xff0c;注意运行前新建一个文件夹Output存放量化后的模型。

源码阅读

跑通了这个例子我们再来阅读一下源代码。

因为是静态离线量化&＃xff0c;所以需要少量的校准数据&＃xff0c;这里用随机生成的方法生成校准数据&＃xff1a;

def load_calibration_dataset() -> Iterable: return [torch.rand(size&＃61;INPUT_SHAPE) for _ in range(32)]

加载pytorch内置的mobilenet V2模型&＃xff0c;如果本地cache没有找到的话&＃xff0c;会自动下载模型的配置和权重&＃xff1a;

model &＃61; torchvision.models.mobilenet.mobilenet_v2(pretrained&＃61;True) model &＃61; model.to(DEVICE)

PPL需要创建一个 QuantizationSetting 对象用来管理量化过程&＃xff0c;这个是由QuantizationSettingFactory实现的&＃xff1a;

# create a setting for quantizing your network with PPL CUDA. quant_setting &＃61; QuantizationSettingFactory.pplcuda_setting() quant_setting.equalization &＃61; True # use layerwise equalization algorithm. quant_setting.dispatcher &＃61; &＃39;conservative&＃39; # dispatch this network in conservertive way.

这里设置了三项&＃xff1a;

用cuda设置
采用分层均衡算法&＃xff0c;这个貌似是这篇论文的&＃xff0c;还没细看&＃xff1a;https://hailo.ai/wp-content/uploads/2021/03/Exploring-Neural-Networks-Quantizationvia-Layer-Wise-Quantization-Analysis.pdf
以保守的方式调度这个网络&＃xff0c;将所有争议区算子视作不可量化的

ppq针对torch模型都封装起来了&＃xff0c;只需要调用quantize_torch_model()即可。如果是onnx模型&＃xff0c;需要手动自建图调度&＃xff0c;最后一样都要使用export_ppq_graph()导出计算图。

# quantize your model. quantized &＃61; quantize_torch_model( model&＃61;model, calib_dataloader&＃61;calibration_dataloader, calib_steps&＃61;32, input_shape&＃61;[BATCHSIZE] &＃43; INPUT_SHAPE, setting&＃61;quant_setting, collate_fn&＃61;collate_fn, platform&＃61;PLATFORM, onnx_export_file&＃61;&＃39;Output/onnx.model&＃39;, device&＃61;DEVICE, verbose&＃61;0) # Quantization Result is a PPQ BaseGraph instance. assert isinstance(quantized, BaseGraph) # export quantized graph. export_ppq_graph(graph&＃61;quantized, platform&＃61;PLATFORM, graph_save_to&＃61;&＃39;Output/quantized(onnx).onnx&＃39;, config_save_to&＃61;&＃39;Output/quantized(onnx).json&＃39;)

torch模型和onnx量化过程中的区别

onnx模型会直接调用quantize_onnx_model()&＃xff0c;torch模型会调用quantize_onnx_model()&＃xff0c;这个函数会先执行torch转onnx操作&＃xff0c;然后再调用quantize_onnx_model()&＃xff1a;

&＃64; empty_ppq_cache def quantize_torch_model( model: torch.nn.Module, calib_dataloader: DataLoader, calib_steps: int, input_shape: List[int], platform: TargetPlatform, input_dtype: torch.dtype &＃61; torch.float, setting: QuantizationSetting &＃61; None, collate_fn: Callable &＃61; None, inputs: List[Any] &＃61; None, do_quantize: bool &＃61; True, onnx_export_file: str &＃61; &＃39;onnx.model&＃39;, device: str &＃61; &＃39;cuda&＃39;, verbose: int &＃61; 0, ) -> BaseGraph: """量化一个 Pytorch 原生的模型输入一个 torch.nn.Module 返回一个量化后的 PPQ.IR.BaseGraph. quantize a pytorch model, input pytorch model and return quantized ppq IR graph Args: model (torch.nn.Module): 被量化的 torch 模型(torch.nn.Module) the pytorch model calib_dataloader (DataLoader): 校准数据集 calibration dataloader calib_steps (int): 校准步数 calibration steps collate_fn (Callable): 校准数据的预处理函数 batch collate func for preprocessing input_shape (List[int]): 模型输入尺寸&＃xff0c;用于执行 jit.trace&＃xff0c;对于动态尺寸的模型&＃xff0c;输入一个模型可接受的尺寸即可。如果模型存在多个输入&＃xff0c;则需要使用 inputs 变量进行传参&＃xff0c;此项设置为 None a list of ints indicating size of input, for multiple inputs, please use keyword arg inputs for direct parameter passing and this should be set to None input_dtype (torch.dtype): 模型输入数据类型&＃xff0c;如果模型存在多个输入&＃xff0c;则需要使用 inputs 变量进行传参&＃xff0c;此项设置为 None the torch datatype of input, for multiple inputs, please use keyword arg inputs for direct parameter passing and this should be set to None setting (OptimSetting): 量化配置信息&＃xff0c;用于配置量化的各项参数&＃xff0c;设置为 None 时加载默认参数。 Quantization setting, default setting will be used when set None inputs (List[Any], optional): 对于存在多个输入的模型&＃xff0c;在Inputs中直接指定一个输入List&＃xff0c;从而完成模型的tracing。 for multiple inputs, please give the specified inputs directly in the form of a list of arrays do_quantize (Bool, optional): 是否执行量化 whether to quantize the model, defaults to True, defaults to True. platform (TargetPlatform, optional): 量化的目标平台 target backend platform, defaults to TargetPlatform.DSP_INT8. device (str, optional): 量化过程的执行设备 execution device, defaults to &＃39;cuda&＃39;. verbose (int, optional): 是否打印详细信息 whether to print details, defaults to 0. Raises: ValueError: 给定平台不可量化 the given platform doesn&＃39;t support quantization KeyError: 给定平台不被支持 the given platform is not supported yet Returns: BaseGraph: 量化后的IR&＃xff0c;包含了后端量化所需的全部信息 The quantized IR, containing all information needed for backend execution """ # dump pytorch model to onnx dump_torch_to_onnx(model&＃61;model, onnx_export_file&＃61;onnx_export_file, input_shape&＃61;input_shape, input_dtype&＃61;input_dtype, inputs&＃61;inputs, device&＃61;device) return quantize_onnx_model(onnx_import_file&＃61;onnx_export_file, calib_dataloader&＃61;calib_dataloader, calib_steps&＃61;calib_steps, collate_fn&＃61;collate_fn, input_shape&＃61;input_shape, input_dtype&＃61;input_dtype, inputs&＃61;inputs, setting&＃61;setting, platform&＃61;platform, device&＃61;device, verbose&＃61;verbose, do_quantize&＃61;do_quantize)

返回的都是一个量化IR(中间表示)&＃xff0c;根据这个中间表示再去保存我们所需要的信息。

后记

openppl的中文文档和教程非常完善&＃xff0c;堪比paddle&＃xff0c;适合基于此学习模型量化。本篇博客是第一篇&＃xff0c;大致了解了ppq的设计思想、框架结构&＃xff0c;并通过一个简单的例子实践感受。后续的博客会继续探索openppl模型量化&＃xff01;

推荐阅读

list
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
eval
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
char
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
post
在Linux系统上彻底卸载Zimbra邮件系统

本文详细介绍了如何在Linux系统（以CentOS为例）上彻底卸载Zimbra邮件系统，包括停止服务、删除文件和用户等步骤。 ... [详细]

蜡笔小新 2024-11-13 14:32:16
list
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
post
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
const
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
nodejs
基于Vue和Nuxt的服务端渲染，Node.js全栈项目的博客系统搭建

大家好，我是李白。本文将分享一个从零开始的全栈项目，涵盖了设计、前端、后端和服务端的全面学习过程。通过这个项目，我希望能够帮助初学者更好地理解和掌握全栈开发的技术栈。 ... [详细]

蜡笔小新 2024-11-12 17:27:19
email
HarmonyOS 2.0 源码获取与编译指南

本文将详细介绍如何注册码云账号、配置SSH公钥、安装必要的开发工具，并逐步讲解如何下载、编译 HarmonyOS 2.0 源码。通过本文，您将能够顺利完成 HarmonyOS 2.0 的环境搭建和源码编译。 ... [详细]

蜡笔小新 2024-11-12 11:55:04
command
在 Mac 上安装 HL-340 USB 转串口驱动

本文介绍了如何在 macOS 上安装 HL-340 USB 转串口驱动，并提供了详细的步骤和注意事项。包括下载驱动、关闭系统完整性保护、安装驱动以及验证安装的方法。 ... [详细]

蜡笔小新 2024-11-12 01:55:20
post
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
nodejs
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
php
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
post
深入浅出 webpack 系列（二）：实现 PostCSS 代码的编译与优化

在前一篇文章中，我们探讨了如何通过基础配置使 Webpack 完成 ES6 代码的编译。本文将深入讲解如何利用 Webpack 实现 PostCSS 代码的编译与优化，包括配置相关插件和加载器，以提升开发效率和代码质量。我们将详细介绍每个步骤，并提供实用示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-10 08:43:39
export
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36

如果你在的时候的世界_266

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章